지식 그래프(Knowledge Graph)란
무엇인가?
Google(2012) 이후 학계와 업계에서 쓰이는 정의와 핵심 구성요소를 정리합니다.
지식 그래프(Knowledge Graph)란,
현실 세계의 개체(Entity)와 개체 사이의 관계(Relationship)를
그래프 구조로 표현하여 기계가 이해하고 추론할 수 있도록 만든 지식 체계입니다.
핵심 키워드 세 가지를 기억해두세요.
- 개체(Entity) — 사람, 장소, 조직, 개념 등 현실 세계의 "것"
- 관계(Relationship) — 개체와 개체를 연결하는 "의미 있는 선"
- 그래프 구조 — 테이블이 아닌, 노드와 엣지로 이루어진 네트워크
지식 그래프를 이해하려면 "그래프"가 무엇인지 먼저 알아야 합니다.
여기서 말하는 그래프는 막대 그래프나 원 그래프가 아닙니다.
그래프(Graph) = 노드(Node) + 엣지(Edge)
노드(Node) — 점. 하나의 개체를 나타냅니다.
엣지(Edge) — 선. 두 개체 사이의 관계를 나타냅니다.
속성(Property) — 노드나 엣지에 붙는 추가 정보입니다.
[홍길동] —거주→ [서울]
위 예시에서 [홍길동], [카카오], [판교], [서울]은 노드(개체)이고,
근무, 위치, 거주는 엣지(관계)입니다.
이렇게 연결된 전체 네트워크가 바로 지식 그래프입니다.
| 구성요소 | 설명 | 예시 |
|---|---|---|
| 노드 (Node) | 현실 세계의 개체(Entity) | 홍길동, 카카오, 서울 |
| 엣지 (Edge) | 개체 간의 관계(Relationship) | 근무, 거주, 위치 |
| 속성 (Property) | 개체나 관계에 대한 부가 정보 | 나이: 30, 입사일: 2023-01 |
| 라벨 (Label) | 노드의 유형(타입)을 분류 주로 Property Graph에서 사용. RDF에서는 rdf:type으로 표현 |
사람, 회사, 도시 |
| 트리플 (Triple) | 지식의 최소 표현 단위: 주어-술어-목적어 노드 + 엣지 + 노드 = 하나의 트리플 |
홍길동 - 근무 - 카카오 |
트리플(Triple)은 지식 그래프의 가장 작은 단위입니다.
어떤 복잡한 지식 그래프든, 결국 트리플의 집합으로 분해할 수 있습니다.
홍길동 —[근무]→ 카카오 = 하나의 트리플 = 하나의 사실(fact)
"지식 그래프"라는 용어가 대중에게 알려진 계기는 Google입니다.
"Things, not strings."
2012년 5월, Google은 검색 결과 옆에 정보 패널을 띄우는 Knowledge Graph를 발표했습니다.
이전 검색: "아인슈타인"을 검색하면 → 해당 문자열이 포함된 웹페이지 목록을 보여줌
KG 이후: "아인슈타인"을 검색하면 → 개체로 인식하여 생년, 국적, 업적, 관련 인물을 패널로 보여줌
검색 대상이 "문자열(string)"에서 "실체(thing)"로 바뀐 것입니다.
이것이 바로 Google의 슬로건 "Things, not strings"의 의미입니다.
Google의 Knowledge Graph는 2012년 출시 당시 약 5억 개의 개체와 35억 개의 사실(트리플)을 포함했습니다.
현재는 수천억 개 이상의 사실을 담고 있으며, Google 검색, Google Assistant, YouTube 추천 등 거의 모든 Google 서비스의 기반이 됩니다.
"지식 그래프"는 하나의 합의된 정의가 없습니다. 하지만 공통적인 핵심은 같습니다.
| 출처 | 정의 요약 |
|---|---|
| Google (2012) | 현실 세계의 개체와 그 관계를 구조화하여 검색을 의미 기반으로 전환한 시스템 |
| Hogan et al. (2021) 학술 서베이 |
개체를 노드로, 관계를 엣지로 표현한 그래프. 다양한 출처의 이질적 데이터를 통합할 수 있으며, 추론을 통해 새로운 지식을 도출할 수 있는 구조 |
| 업계 공통 | 도메인의 핵심 개체와 관계를 그래프로 모델링하여, 탐색·추론·의사결정에 활용하는 지식 저장소 |
정의는 다양하지만 공통 키워드는 같습니다:
개체(Entity) + 관계(Relationship) + 그래프 구조 + 추론 가능성
지식 그래프는 이미 우리가 매일 사용하는 서비스 곳곳에 들어가 있습니다.
| 분야 | 활용 사례 | 핵심 역할 |
|---|---|---|
| 검색 엔진 | Google Knowledge Panel, Bing Satori | 검색어를 개체로 인식하여 관련 정보를 구조적으로 제공 |
| 추천 시스템 | Netflix, Amazon, LinkedIn | 사용자-콘텐츠-속성 관계를 탐색하여 맥락 있는 추천 |
| 의료 | 약물 상호작용, 질병-유전자 관계 | 복잡한 생물학적 관계를 그래프로 모델링하여 신약 후보 탐색 |
| 금융 | 자금 세탁 탐지, 기업 관계 분석 | 숨겨진 자금 흐름과 기업 소유 구조를 관계 탐색으로 발견 |
| 국방 · 공공 | Palantir Foundry | 이질적 데이터를 온톨로지로 통합하여 의사결정 지원 |
| LLM 보강 | GraphRAG, 환각 방지 | LLM이 구조화된 지식을 참조하여 근거 기반 응답 생성 |
지식 그래프를 구현하는 방법은 크게 두 갈래로 나뉩니다.
이 로드맵의 PART 1과 PART 2가 바로 이 두 경로에 해당합니다.
| 구분 | Property Graph (PART 1) | RDF / 온톨로지 (PART 2) |
|---|---|---|
| 데이터 모델 | 노드 · 관계 · 속성 · 라벨 | 트리플 (주어 - 술어 - 목적어) |
| 대표 도구 | Neo4j, TigerGraph | Protege, Apache Jena |
| 질의 언어 | Cypher / GQL | SPARQL |
| 추론 | 직접 지원하지 않음 | OWL 추론기로 자동 추론 가능 |
| 강점 | 직관적, 빠른 탐색, 실무 중심 | 의미 표현, 논리적 추론, 표준화 |
두 접근법은 경쟁이 아니라 관점의 차이입니다.
"어떻게 연결되어 있지?" → Property Graph
"무엇을 의미하지?" → 온톨로지
각자의 강점이 다르며, 이후 PART 1과 PART 2에서 각각 깊이 다룹니다.
- 지식 그래프는 현실 세계의 개체와 관계를 그래프로 표현한 지식 체계입니다.
- 가장 작은 단위는 트리플(주어-술어-목적어)이며, 트리플의 집합이 곧 지식 그래프입니다.
- 2012년 Google이 "Things, not strings"를 선언하면서 용어가 대중화되었습니다.
- 구현 방식은 크게 Property Graph(Neo4j)와 RDF/온톨로지(Protege) 두 갈래로 나뉩니다.
- 검색, 추천, 의료, 금융, LLM 보강 등 이미 광범위하게 활용되고 있습니다.
다음 페이지에서는 "데이터를 저장하는 것과 이해하는 것의 차이"를 통해,
기존 RDB가 왜 지식 그래프를 대체할 수 없는지 구체적으로 살펴봅니다.